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基于 标签 分 类 的 协同 过 滤 推 荐 算 
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摘 要 : 传统 的 协同 过 滤 根 据 用 户 的 行为 去 预测 可 能 喜欢 的 产品 ， 是 当前 应 用 最 广泛 的 推荐 算法 之 一 。 但 随 着 用 户 规 

模 的 急剧 扩大 ， 有 价值 的 信息 占 比 较 少 ， 存 在 稀 鸣 性 等 问题 Nee 量 不 高 。 针 对 这 一 问题 ， 提 出 了 一 种 基于 标 
签 分 类 的 协同 过 滤 推 荐 算法 。 将 不 完整 的 数据 样本 根据 标签 进行 分 类 ， 使 分 解 的 矩阵 依赖 于 类 ， 随 后 使 用 迭代 投影 寻 

踪 的 方法 计算 类 依赖 矩阵 的 线性 组 合 及 其 对 应 的 权重 。 开 放 数 据 集 实 验 表 明 , 该 方法 在 保持 一 定 分 类 准确 率 的 前 提 下 ， 

平均 降低 了 35.23% 的 插 补 误差 ， 优 于 传统 协同 过 滤 推 荐 算法 。 
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Collaborative filtering recommendation algorithm based on label classification 


Zhu Zhengyu, Cao Xiaomei 
(School of Computer & Software, Nanjing University of Posts & Telecommunications, Nanjing 210000, China) 


Abstract: Traditional collaborative filtering is one of the most widely used recommendation algorithms based on the user 
behavior. However, with the rapid expansion of the user scale, there are fewer valuable information so that it leads to bad 
recommendation quality because of matrix sparsity. To solve this problem, this paper proposed a collaborative filtering 
recommendation algorithm based on label classification. Incomplete data samples were categorized according to the labels so 
that the decomposed matrix could depend on the class. Then the linear combination of class-dependent matrices and its 


corresponding weights were calculated by using iterative projection pursuit. The experiments of open datasets show that the 


proposed method reduces the average interpolation error by 35.23% while maintaining certain classification accuracy. This 


method is better than the traditional collaborative filtering recommendation algorithm . 
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一 learning 
0 引言 域 的 协同 过 滤 算 法 是 根据 用 户 的 历史 信息 计算 用 户 〈 产 品 ) 之 
入 间 的 相似 性 ， 然 后 根据 其 偏好 推荐 相似 的 用 户 〈 产 品 〉 给 他 。 


互联 网 的 出 现 与 发 展 使 人 们 生产 、 复 制 、 传 播 信息 的 能 力 型 的 协同 过 滤 主 要 通过 用 户 对 产品 的 评分 信息 训练 出 相 
大 大 增强 ， 人 们 正在 面临 前 所 未 有 的 信息 过 载 问题 。 在 此 背景 ”应 的 模型 ， 利 用 模型 再 进行 未 知 数据 的 预测 。 由 于 其 良好 的 扩 

， 推 荐 系统 应 运 而 生 。 具 体 而 言 ， 推 荐 系统 是 通过 收集 和 分 。 展 性 和 可 实践 性 ， 被 广泛 地 使 用 并 且 获 得 巨大 的 成 功 。 但 是 随 
析 用 户 的 各 种 数据 来 学 习 用 户 的 兴趣 和 行为 模式 ， 从 而 为 用 户 ” 着 用 户 和 项 目 数量 的 急剧 增加 ， 基 于 协同 过 滤 的 推荐 系统 面临 


i 
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nt 


在 庞大 的 信息 中 推荐 他 所 需要 的 信息 或 者 服务 器 。 目 前 互联 网 ”用 户 一 评分 矩阵 稀 玻 性 的 问题 。 
的 几 大 支柱 产业 ， 包 括 电子 商务 和 社交 网 络 等 ， 都 不 同 程度 地 针对 这 个 问题 ， 传 统 方法 主要 是 降 维和 基于 聚 类 的 方法 ， 
使 用 了 推荐 系统 技术 中 。 国内 外 研究 者 提出 了 多 种 解决 方案 。 文 献 [3] 采 用 主 成 分 分 析 


前 ， 在 众多 的 推荐 算法 中 ， 协 同 过 滤 (collaborative (PCA) 方法 对 用 户 项 目 评分 矩阵 进行 降 维 处 理 ， 缓 解 了 输入 
filtering,CF) 算法 是 应 用 最 广泛 的 推荐 算法 之 一 ， 它 根据 用 户 数据 的 稀疏 性 问题 ,文献 [和 提出 了 一 种 基于 聚 类 平滑 联合 来 减 
项 目 评分 数据 ， 计 算 用 户 《 或 项 目 ) 之 间 的 相似 度 进行 推荐 。 少数 据 稀 疏 的 不 良 影响 ， 但 是 这 种 方法 丢失 了 部 分 用 户 评价 的 
协同 过 滤 推 荐 算法 主要 包括 基于 邻 域 和 基于 模型 两 类 。 基 于 邻 数据。 文献 [5] 提 出 的 聚 类 方法 不 能 反映 用 户 之 间 的 兴趣 差异 ， 
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因此 推荐 结果 的 准确 性 并 没有 明显 提高 。 文 献 [6] 在 弱 关 系 的 社 


和 矩阵 插 补 的 目的 是 找到 合适 的 Uy 和 WV， 使 得 损失 函数 Es 的 


交 网 络 中 ， 采 用 基于 用 户 聚 类 的 方法 ， 提 出 两 阶段 聚 类 的 推荐 
算法 ， 将 图 摘要 方法 与 基于 内 容 相 似 度 的 算法 结合 ， 实 现 基 于 
用 户 兴 趣 的 主题 推荐 ,有 效 缓解 了 秆 阵 稀 琉 性 和 冷 启动 的 问题 。 
交 蔡 最 小 二 乘法 (alternating least squares， ALS) 由 Zhou 
等 人 [在 2008 年 提出 。 这 种 方法 经 常用 于 基于 移 阵 分 解 的 协同 
过 滤 推 荐 算法 ， 属 于 基于 模型 的 协同 过 滤 。 例 如 ， 用 户 评分 矩 
阵 被 分 解 成 两 个 矩阵 ， 一 个 是 用 户 对 商品 的 隐 含 特性 的 偏好 死 
阵 ， 另 一 个 是 隐 含 在 商品 中 的 特征 抢 阵 。 通 过 降 维 对 缺失 数据 
进行 插 补 ， 从 而 进行 推荐 外 。 
于 在 推荐 系统 的 应 用 场景 中 ， 存 在 大 量 的 缺失 项 ， 传 统 
的 奇异 值 分 解 等 矩阵 分 解 算法 在 处 理 数 据 稀 玻 性 时 存在 严重 的 
数据 拟 合 化 问题 加， 而 ALS 可 以 很 好 地 解决 这 个 问题 。 为 了 防 
止 ALS 模型 的 过 度 分 析 , 相关 研究 在 进行 矩阵 分 解 时 执行 了 正 
则 化 。PaterekI9 通 过 在 cost 函数 上 附加 额外 的 误差 来 研究 ALS 
模型 , 同时 建立 矩阵 因子 .Zhou 等 人 提出 了 加 权 的 ALS 模型 ， 
其 中 两 个 岭 参 数 在 矩阵 分 解 过 程 中 分 别 施加 于 和 矩阵 因子 中 9。 这 
样 的 做 法 与 岭 回 归 (ridge regression〉 类 似 。 岭 回归 在 1962 年 
E 提 出 ，1970 年 进一步 发 展 了 该 方法 I。Ding 等 人 
09 开 发 了 正 交 抢 阵 分 解 ， 也 成 为 目前 矩阵 分 解 中 比较 常用 的 方 
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然而 协同 过 滤 推 荐 算法 本 身 以 及 目前 已 知 对 该 算法 的 改进 ， 
都 没有 在 处 理 过 程 中 嵌入 标签 信息 ,都 属于 无 监督 学 习 的 范畴 。 
当 数 据 样本 较 多 且 稀疏 的 情况 下 ， 可 能 造成 较 高 误 揪 补 率 等 问 
题 ， 从 而 导致 推荐 质量 不 佳 。 

针对 上 述 问题 ， 本 文 提出 了 一 种 基于 标签 分 类 的 协同 过 滤 
推荐 算法 (label classification based collaborative filtering 
标签 信息 优势 的 监 
督学 习 ， 基 于 相应 类 的 统计 分 布 进 行 数据 分 类 ， 用 生成 的 类 依 
赖 替 代 值 进行 插 补 ， 以 改进 传统 的 插 补 方法 ， 从 而 完成 较为 准 
确 且 质量 高 的 推荐 。 


recommendation algorithm, LCCF) 。 通 过 利 ) 


1 ”ALS 协同 过 滤 推 荐 算法 


本 章 先 介绍 初始 的 ALS 协同 过 滤 算 法 ， 然 后 介绍 正则 化 
ALS 协同 过 滤 算 法 。 在 初始 ALS 协同 过 滤 算 法 研究 中 , 矩阵 分 
解 集中 在 寻找 基 矩 阵 上 ， 一 个 MsN 的 矩阵 被 分 解 为 两 个 低 秩 
矩阵 77 和 WY ， 如 式 (1) 所 示 ， 前 者 表示 基 和 矩阵 ， 后 者 为 系数 
矩阵。 


XaUV 0) 
当 考 虑 数据 矩阵 和 是 不 缺失 数据 的 情况 ,ALS 矩阵 完整 表 
示 为 


Ens(U’ v)=|x-v™v| (2) 


这 里 的 Uy ?和 VV 分 别 表 示 M *D 和 D*N 的 未 知 矩 阵 ; 
万 是 中 间 维度 ， 八 代表 Frobenius 范 数 ，7 代表 和 矩阵 的 转 置 。 
式 (1) 提 到 ?和 V 都 是 低 秩 和 矩阵 ， 即 刀 < M HD <N 。ALS 


值 最 小 。 需 要 注意 的 是 ， 由 于 UV” 和 V 是 未 知 和 矩阵 ， 如 果 要 去 
计算 WV ,启发 式 地 初始 化 U 是 必要 的 ， 然 后 迭代 更 新 U” 和 了 
可 以 得 到 最 后 的 融合 解 。 此 外 ， 由 于 D 是 一 个 未 知 变量 ， 需 要 
在 递归 训练 前 进行 预定 义 。 
对 于 正则 化 ALS 协同 过 滤 算 法 , 它 使 用 岭 参 数 来 进行 正则 
化 来 防止 ”和 VV 过 度 拟 合 。 岭 参数 的 作用 是 稳定 了 逆 矩 阵 ， 
同时 也 避免 了 奇异 矩阵 的 产生 号 ， 如 式 〈3) 所 示 。 


Er,(U’ 7)=|z-zv 


要 
eg 


当 抢 阵 X 有 缺失 值 时 ， 这 里 将 缺失 样本 的 抢 阵 进行 点 乘 
得 到 G(X)。 原 理 类 似 计算 机 网 络 中 掩 码 的 作用 ， 将 矩阵 
X 空缺 数值 的 位 置 置 为 0， 有 数值 的 位 置 保持 不 变 。 对 式 
(3) 求 偏 导 并 令 等 式 等 于 0 可 得 

V=(UU +p,1) UxG(X) (4) 同样 地 ， 

U=(VV +OD VxG(X) (5) 其 
了 是 单位 矩阵 。 然 后 迭代 更 新 ”和 VV 可 以 得 到 融合 解 。 
最 后 , 矩阵 X 的 缺失 元 素 被 生成 的 矩阵 的 相应 元 素 所 替代 ， 
， 完 成 了 矩阵 近似 ， 可 以 表示 为 


Ers(U, v)=|ece-v™) 


2 
| (0) 


2 LCCF 推荐 算法 

在 第 1 章 介绍 的 正则 化 ALS 协同 过 滤 算 法 基础 之 上 , 这 里 
提出 了 一 种 基于 标签 分 类 的 LCCF 推荐 算法 ， 原 理 是 基于 和 矩阵 
分 解 时 产生 的 类 依赖 矩阵 因子 的 监督 数据 进行 插 补 ， 使 用 类 信 
息 来 创建 代替 值 。 在 训练 阶段 ， 具 有 标签 信息 的 不 完整 数据 根 
据 标签 被 分 成 不 同 的 类 别 ， 使 得 矩阵 依赖 于 类 。 随 后 ， 采 用 过 
代 投 影 寻 踪 的 方法 计算 这 些 类 依赖 矩阵 的 线性 组 合 及 其 对 应 的 
权重 来 对 测试 的 数据 进行 插 补 。 
2.1 对 缺失 数据 样本 进行 分 类 

假设 X 是 一 个 缺失 数据 的 矩阵 MM*N ,》 是 包含 相应 标签 
的 入 和 1 向量， 类 的 数量 是 工 。 和 矩阵 叉 被 拆 分 成 和 ,其 中 
1=4.., 虐 。 和 矩阵 ,的 大 小 为 MxN),， 且 N+N,+...+N,= 
N 


TH 


根据 式 (4) 和 (5), 在 训练 阶段 产生 的 类 依赖 矩阵 
和 V 如 下 : 


六 | 


FU, 


V=(UU, +p,1) 'U,xG(X,) (7) 


U,= (VV +pyT) VxG(X,) (8) 


忆 的 初始 化 是 基于 类 依赖 的 方法 加 上 包含 随机 数 的 向 量 
Z， 即 


U,=[p, Hy Po (9) 
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其 中 : 


以 
La = 2 G(X,) (0) 
1 


m= 


在 式 〈10) 中， 参数 4 是 第 一 节 介 绍 的 中 间 维 度 D 的 索 
引 ; 7 表示 类 1 样本 的 索引 ;，K 表示 算 阵 的 均值 ，N, *1 是 
Xn 第 列 。 令 I 表示 不 缺失 值 的 新 的 MM *1 样 本 。 如 果 t 属 
于 Ui 为 基 的 线性 空间 时 ， 这 意味 着 当 U) 包含 所 有 基 时 ，UV 
中 向 量 的 线性 组 合 存在 。 即 组 合 系 数 可 用 1*DD 的 向 量 V 表 
示 ， 使 得 =U? Xv 。 此 外 ，V 与 等 价 ， 原 因 是 当 训练 阶 
段 观察 到 足够 的 样本 时 ，YV 可 以 被 看 做 在 U, 所 有 可 能 的 组 合 
04。 因 此 ，V =V, Xx qa, ， 其 中 ,是 一 个 入 , *1 的 系数 向 量 。 
因为 UV" 和 ,都 是 近似 低 秩 的 ， 所 以 目标 是 找到 a, ， 使 得 
UVa, 与 1 足够 近似 ， 即 
twU’ Va =UV (1D 系统 可 


RMSE=1 天 -一 一 一 7 (19) 


e) 通过 选择 具有 最 小 RMSE 的 1 可 以 确定 预测 类 。 
[=arg, min(RMSE) (20) 


3 ”实验 结果 及 分 析 


3.1 数据 集 及 预 处 理 

为 了 检验 基于 标签 分 类 的 协同 过 滤 推 荐 算法 与 传统 的 正则 
化 ALS 协同 过 滤 算 法 之 间 推 荐 质量 的 差别 , 并 且 为 了 避免 单一 
数据 集 出 现 过 拟 合 化 的 问题 ， 本 次 实验 使 用 的 是 明尼苏达 大 学 
GroupLens 小 组 提供 MoiveLens 数据 集 和 在 线 视频 提供 商 
Netflix 提供 的 Netflix 数据 集 , 这 些 数据 集 是 用 户 对 电影 的 真实 
评分 数据 ， 并 且 每 个 电影 都 有 相应 的 类 别 字 段 ， 包 含 电影 ID、 


以 通过 测量 重 构 误差 来 确定 定 新 样本 的 类 别 ， 即 新 加 入 的 样本 
数据 也 可 以 进行 基于 类 的 插 补 ， 从 而 不 需要 元 余 的 再 进行 数据 
训练 。 令 重 构 差 为 e;， 即 

e =t—U Vv (12) 


其 中 : 
T 一 1 
v=(UU +p Ut (43) 
随 着 递归 地 进行 重 构 , 系统 可 以 对 测试 样本 进行 近似 计算 
并 进行 分 类 ， 即 式 (13) 为 最 后 改进 的 岭 回 归 ( RR ) 的 解 ， 最 
后 可 以 得 出 式 (14) 的 目标 解 。 


| 


Ex) = -vv +p lh ao 


2.2 ”使 用 迭代 投影 寻 踪 进行 数据 插 补 

当 需 要 处 理 的 数据 维 数 较 高 时 ， 数 据 结 构 常 表现 在 几 个 重 
要 的 投影 方向 上 。 投 影 寻 踪 方 法 可 以 有 效 地 发 现 高 维 数值 的 结 
构 和 特征 一 ” 。 

因此 在 算法 中 提出 了 基于 岭 回 归 的 迭代 投影 寻 踪 方法 。 和 
代 投 影 寻 踪 方法 可 以 迭代 地 检测 由 类 依赖 基 抢 阵 形成 的 向 量 之 


电影 名 称 、 电 影 类 型 等 ， 这 些 数 据 集 的 信息 如 表 1 所 示 。 
表 1 实验 数据 集 
名 称 户 电影 评分 数量 
ML-100K 6 040 3 592 100 000 
Netflix 13 682 7 862 650 000 
实验 根据 数据 集 标签 对 电影 类 别 进行 建 模 ， 并 且 采 用 随机 


抽取 80% 的 数据 进行 训练 ， 甚 余 的 20% 用 于 测试 ， 这 样 可 以 保 
证 训练 数据 与 测试 数据 都 是 随机 的 且 都 来 自 同 一 数据 集 。 对 于 
岭 参数 p, 、P, 、D) 通常 都 设 为 0.5。 此 外 ， 在 训练 阶段 ， 基 
于 标签 和 传统 的 协同 过 滤 的 平均 RMSE 闵 值 都 设置 为 0.01。 
这 里 将 数据 集 送 入 支持 向 量 机 (SVM) 分别 进行 有 监督 和 
无 监督 的 进行 训练 。SVM 是 由 Vanpik 领导 的 AT&TBell 实验 
室 小 组 在 1963 提出 的 一 种 新 的 并 且 非 常 有 潜力 的 分 类 技术 ， 
前 主要 用 于 模式 识别 领域 "”。SVM 的 关键 在 于 核 函数 ， 因 为 
它 通 过 将 数据 映射 到 高 维 空间 ， 来 解决 在 原始 空间 中 线性 不 可 
分 的 问题 ,避免 了 直接 在 高 维 空间 中 的 复杂 计算 。 核 函数 的 
类 型 主要 有 线性 函数 、 多 项 式 函 数 和 径 向 基 函 数 (RBF)。 目 前 


间 的 最 近 距 离 ， 并 且 也 可 以 检测 不 完整 的 向 量 。 对 于 具有 人 缺失 
数据 的 上 ， 需 要 在 上 述 过 程 中 执行 数据 插 补 和 分 类 。 程 序 思想 
如 下 : 


a) 初始 化 旋 ， 用 0 来 填充 缺失 数据 的 1 。 

b) 基于 每 个 类 计算 六 。 其 中 并 代表 迭代 次 数 。 
v=UU +pD UN] as) 

c) 通过 重 构 1 来 估算 缺失 值 。 其 中 运算 符 外 表示 用 估计 值 f 
代替 实际 缺失 值 。 


t[i]=U7 xv [i] (16) 
[it1]=t @E] (17) 

d) 重复 步骤 b) 一 d) ， 直 到 重 构 误 差 e 收敛 。 
eli+1]=G(1-h[i+]]) (8) 


在 第 3 章 实 验 中 ， 使 用 RMSE 作为 停止 训练 的 标准 。 
RMSE 表示 均 方 根 误差 ， 其 中 el ,, 表示 类 1 。 


实际 应 用 最 广泛 的 是 RBF 核 。 与 多 项 式 核 函 数 相 比 ， 当 多 项 式 
的 阶 数 较 高 时 ， 会 出 现 核 矩 阵 元素 趋 于 无 穷 大 或 者 无 穷 小 的 问 
题 , 而 RBF 会 减少 数值 的 计算 困难 , 线性 函数 是 RBF 的 特例 ， 
大 部 分 情况 下 RBF 的 适用 范围 更 广 。 综合 考虑 ， 本 文 实验 采用 
RBF 核 函数 中 比较 常用 的 插值 法 ， 通 过 选择 合适 的 插值 半径 进 
行 实 验 。 由 于 Netflix 相对 比 ML-100K 数据 集 样本 数量 比较 多 ， 
RBF 插值 半径 分 别 设置 为 1.00 和 10.00。 
3.2 评价 标准 

本 文 实验 使 用 均 方 根 误差 RMSE 作为 评价 标准 。 
过 计算 预测 的 用 户 评分 与 实际 的 用 户 评分 之 间 的 偏差 来 度量 预 
测 的 准确 性 ， 是 最 常用 的 一 种 推荐 质量 度量 方法 。 
越 小 ， 意 味 着 推荐 的 质量 越 高 。 结 合 第 2 章 提 出 的 迭代 投影 寻 
踪 方法 ，RMSE 表示 为 
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RAMSE= 让 天 -一 一 一 (21) 
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本 文 还 使 用 分 类 准确 率 (classification accuracy) 作为 评价 


越 大 ， 准 确 率 越 低 的 趋势 。 对 比 图 1 和 2 可 以 看 出 ， 图 1 分 类 
准确 率 是 高 于 图 2 的 分 类 准确 率 ， 这 与 数据 集 的 稀 玻 性 程度 有 
关 ，Netflix 数据 集 较 ML-100K 数据 集 稀 疏 许 多 。 另 外 图 2 中 
Netflix 数据 集 维度 为 7 时 ， 准 确 率 略 高 于 维度 5， 这 里 在 SVM 


标准 。 准 确 率 是 评价 一 个 分 类 算法 好 坏 比较 直观 的 标准 ， 只 有 

保证 一 定 的 分 类 准确 率 前 提 下 ，2.2 节 LCCF 算法 下 的 矩阵 插 

补 才 有 意义 。 分 类 准确 率 表 示 为 
Accuracy = (TP+TN)/(P+N) 


3.3 ”实验 结果 及 分 析 

本 文 实 验 将 分 为 两 个 部 分 : 第 一 个 部 分 是 将 传统 的 ALS 协 
同 过 滤 算 法 (简称 ALS-CF ) 与 提出 的 LCCF 算法 进行 分 类 准 
确 率 的 对 比 实验 ， 第 二 部 分 对 比 它们 的 均 方 根 误差 ， 即 RMSE， 
最 后 得 出 实验 结论 。 
3.3.1 计算 分 类 准确 率 

对 于 分 类 准确 率 的 对 比 实验 ， 本 文 将 ALS-CF 和 LCCF 分 
别 送 入 SVM 进行 训练 ， 计 算出 相应 的 分 类 准确 率 。 实 验 结果 
如 图 1 和 2 所 示 。 
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图 1 ML-100k 数据 集 的 分 类 准确 率 
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图 2 Netflix 数据 集 的 分 类 准确 率 

实验 结果 表明 ， 对 于 ML-100K 数据 集 ，LCCF 算法 平均 分 
类 准确 率 为 81.21%，ALS-CF 算法 平均 分 类 准确 率 为 80.63%; 
对 于 Netflix 数据 集 ，LCCF 算法 平均 分 类 准确 率 为 71.54%， 
ALS-CF 算法 平均 分 类 准确 率 为 70.62%。 

结合 图 1 和 2， 无 论 是 ML-100K 数据 集 还 是 Netflix 数据 
集 ， 即 使 在 不 同 维度 D 下 ，LCCEF 算法 的 分 类 准确 率 都 略 高 于 
传统 的 ALS-CF, 保持 了 一 定 的 分 类 准确 率 。 也 可 以 看 出 , 维度 
的 不 同 对 于 分 类 准确 率 也 是 有 一 定 的 影响 ， 大 部 分 都 呈现 维 
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中 使 用 多 项 式 核 函数 进行 二 次 验证 ， 实 验 结果 与 使 用 RBF 核 函 
数 类 似 ， 都 出 现 维度 7 的 分 类 准确 率 高 于 维度 5 的 情况 ， 这 样 
的 情况 是 允许 的 。 
3.3.2 计算 均 方 根 误差 RMSE 

第 二 部 分 实验 对 比 ALS-CF 与 LCCF 算法 的 平均 RMSE。 
首先 将 两 个 数据 集 的 空缺 率 分 别 设置 为 10%、20% 和 30%， 然 
后 送 入 SVM 进行 训练 ， 最 后 计算 出 均 方 根 误差 RMSE。 这 里 
设置 空缺 率 的 目的 是 为 了 验证 不 同 稀疏 性 的 情况 下 ， 所 提出 的 
LCCF 算法 是 否 依然 可 以 降低 RMSE， 提 高 推荐 质量 。 实 验 结 
果 如 图 3 和 4 所 示 。 

实验 结果 表明 ， 无 论 是 ML-100k 数据 集 还 是 Netflix 数据 
集 ， 所 提出 的 LCCF 算法 的 RMSE 较 ALS-CF 算法 更 小 。 以 
ML-100K 数据 集 为 例 , ALS-CF 算法 的 平均 RMSE 为 0.070 492， 
而 LCCF 算法 的 平均 RMSE 为 0.035 261， 该 方法 平均 减少 插 
补 误差 35.23%， 从 而 提高 了 推荐 质量 , 优 于 传统 的 ALS-CF 算 
法 。 
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本 文 提出 了 基于 标签 分 类 改进 的 协同 过 滤 LCCF 算法 ， 空 
缺 数据 根据 类 依赖 基 矩 阵 进行 插 补 ， 可 以 从 系数 矩阵 导出 依赖 
于 类 的 回归 权重 ， 对 新 的 不 完全 样本 进行 分 类 和 插 补 。 为 了 找 
到 合适 的 权重 ， 本 文 使 用 了 达 代 投影 寻 踪 的 方法 。 该 方法 递归 


到 


地 检查 由 类 依赖 矩阵 形成 的 向 量 与 不 完整 向 量 之 间 的 最 近 距 离 。 
接着 与 正则 化 ALS 协同 过 滤 推 荐 算法 进行 对 比 。 实 验 结果 表 
明 ， 所 提出 的 改进 方法 比 典型 的 协同 过 滤 在 保持 一 定 的 分 类 精 
准 度 的 前 提 下 能 有 效 地 减少 插 补 误差 ， 能 够 进行 更 有 效 更 精确 
的 推荐 。 然 而 这 种 基于 标签 分 类 的 方法 只 适用 于 已 存在 标签 信 
推荐 系统 中 的 数据 普遍 存在 标签 数 少 和 用 户 数 庞 
等 问题 ,所 以 下 一 步 将 研究 一 种 适应 性 更 好 的 混合 推荐 算法 ， 
解决 其 他 情况 下 的 数据 稀 玻 性 等 问题 。 
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